Меню
Публикации
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-6-982-990
УДК 004.89
Анализ настроений арабских твитов с использованием контролируемого машинного обучения
Читать статью полностью

Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Бенабдаллах А., Абдеррахим М.А., Мокри М. Анализ настроений арабских твитов с использованием контролируемого машинного обучения // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 982–990 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-6-982-990
Аннотация
Растущий объем пользовательского контента на платформах социальных сетей требует эффективных инструментов для понимания общественных настроений. В работе представлен подход к анализу настроений арабских твитов с использованием контролируемых методов машинного обучения. Исследована производительность трех популярных алгоритмов — опорных векторных машин (Support Vector Machines, SVM), наивного байесовского алгоритма (Naive Bayes, NB) и логистической регрессии (Logistic Regression, LR) — на двух отдельных корпусах: арабском корпусе текстов настроений (Arabic Sentiment Text Corpus, ASTC) и корпусе арабских твитов. Подход содержал четыре теста, оценивающих влияние характеристик корпуса: метода предварительной обработки, метода взвешивания и использования N-грамм на точность классификации. Первый тест позволил установить, что выбор корпуса значительно влияет на производительность модели, при этом SVM показал высокую точность на структурированном ASTC, в то время как NB лучше работает с неформальными арабскими твитами. Во втором тесте предварительная обработка, включая удаление знаков препинания и стоп-слов, привела к заметному улучшению точности классификации для арабских твитов, но оказала минимальное или даже отрицательное влияние на ASTC. Третий тест показал, что включение N-грамм дало незначительное улучшения для NB и LR в более структурированных текстах, в то время как его влияние на твиты было незначительным. Четвертый тест позволил сравнить различные методы взвешивания, показав, что SVM выиграл по сравнению с методом взвешивания TF-IDF, в то время как производительность NB оставалась стабильной независимо от подхода к взвешиванию. Полученные результаты подчеркивают важность адаптации стратегий предварительной обработки и извлечения признаков к конкретным характеристикам набора данных, что в итоге повышает точность анализа настроений в контекстах арабского языка.
Ключевые слова: анализ настроений на арабском языке (ASA), машинное обучение, классификатор, полярность, Twitter
Список литературы
Список литературы
- Mataoui M., Zelmati O., Boumechache M. A Proposed lexicon-based sentiment analysis approach for the vernacular Algerian Arabic // Research in Computing Science. 2016. V. 110. P. 55–70. https://doi.org/10.13053/rcs-110-1-5
- Al-Kabi M., Gigieh A., Alsmadi I., Wahsheh H., Haidar M. An opinion analysis tool for colloquial and standard Arabic // Proc. of the fourth International Conference on Information and Communication Systems (ICICS 2013). 2013.
- Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. 2008. V. 2(1-2). P. 1–135. https://doi.org/10.1561/1500000011
- Taboada M., Brooke J., Tofiloski M., Voll K., Stede M. Lexicon-based methods for sentiment analysis // Computational Linguistics. 2011. V. 37. N 2. P. 267–307. https://doi.org/10.1162/coli_a_00049
- Ding X., Liu B., Yu P.S. A holistic lexicon-based approach to opinion mining // WSDM '08: Proc. of the 2008 International Conference on Web Search and Data Mining. 2008. P. 231–240. https://doi.org/10.1145/1341531.1341561
- Kumar A., Sebastian T.M. Sentiment analysis on twitter // IJCSI International Journal of Computer Science Issues. 2012. V. 9. N 3. P. 372–378.
- Klenner M., Petrakis S., Fahrni A. Robust compositional polarity classification // Proc. of the International Conference RANLP. 2009. P. 180–184.
- Pak A., Paroubek P. Twitter as a corpus for sentiment analysis and opinion mining // Proc. of the Seventh International Conference on Language Resources and Evaluation (LREC'10). 2010.
- Al-Kabi M., Al-Ayyoub M., Alsmadi I., Wahsheh H. A prototype for a standard Arabic sentiment analysis corpus // International Arab Journal of Information Technology. 2016. V. 13. N 1A. P. 163–170.
- Oueslati O., Cambria E., HajHmida M.B., Ounelli H. Review of sentiment analysis research in Arabic language // Future Generation Computer Systems. 2020. V. 112. P. 408–430. https://doi.org/10.1016/j.future.2020.05.034
- Ghallab A., Mohsen Y., Ali Y. Arabic sentiment analysis: A systematic literature review // Applied Computational Intelligence and Soft Computing. 2020. V. 2020. P. 403128. https://doi.org/10.1155/2020/7403128
- Duwairi R., Marji R., Sha'ban N., Rushaidat S. Sentiment Analysis in Arabic tweets // Proc. of the 2014 5th International Conference on Information and Communication Systems (ICICS). 2014. P. 1–6. https://doi.org/10.1109/iacs.2014.6841964
- Bolbol N.K., Maghari A.Y. Sentiment analysis of Arabic tweets using supervised machine learning // Proc. of the 2020 International Conference on Promising Electronic Technologies (ICPET). 2020. P. 89–93. https://doi.org/10.1109/ICPET51420.2020.00025
- Heikal M., Torki M., El-Makky N. Sentiment analysis of Arabic Tweets using deep learning // Procedia Computer Science. 2018. V. 142. P. 114–122. https://doi.org/10.1016/j.procs.2018.10.466
- Alhamid M., Alsahli S., Rawashdeh M., Alrashoud M. Detection and visualization of Arabic emotions on social emotion map // Proc. of the International Symposium on Multimedia (ISM). 2017. P. 378–381. https://doi.org/10.1109/ISM.2017.76
- Al-Thubaity A., Alqahtani Q., Aljandal A. Sentiment lexicon for sentiment analysis of Saudi dialect tweets // Procedia Computer Science. 2018. V. 142. P. 301–307. https://doi.org/10.1016/j.procs.2018.10.494
- Assiri A., Emam A., Al-Dossari H. Towards enhancement of a lexicon-based approach for Saudi dialect sentiment analysis // Journal of Information Science. 2018. V. 44. N 2. P. 184–202. https://doi.org/10.1177/0165551516688143
- Alqurashi T. Arabic sentiment analysis for twitter data: A systematic literature review // Engineering, Technology & Applied Science Research. 2023. V. 13. N 2. P. 10292–10300. https://doi.org/10.48084/etasr.5662
- Liu B. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions / 2nd ed. Cambridge University Press, 2020. 448 p.